19 research outputs found
Learning Morphological Normalization for Translation from Morphologically Rich Languages
Learning Morphological Normalization for Translation from Morphologically Rich Languages When translating from a morphologically rich language into English, source side word forms encode grammatical information that can be considered as redundant with respect to English, leading to data sparsity issues. A well-known way to mitigate this problem is to remove irrelevant information from the source through normalization. This pre-processing is usually performed in a deterministic fashion, using hand-crafted rules. This normalization is, in essence, suboptimal and needs to be adapted for each new language pair. We introduce here a simple way to automatically search for an optimal normalization of the source morphology with respect to the target-side language and show that it can improve machine translation.Lorsqu'ils sont traduits depuis une langue à morphologie riche vers l'anglais, les mots-formes sources contiennent des marques d'informations grammaticales pouvant être jugées redondantes par rapport à l'anglais, causant une variabilité formelle qui nuit à l'estimation des modèles probabilistes. Un moyen bien documenté pour atténuer ce problème consiste à supprimer l'information non pertinente de la source en la normalisant. Ce pré-traitement est généralement effectué de manière déterministe, à l'aide de règles produites manuellement. Une telle normalisationest, par essence, sous-optimale et doit être adaptée pour chaque paire de langues. Nous présentons, dans cet article, une méthode simple pour rechercher automatiquement une normalisation optimale de la morphologie source par rapport à la langue cible et montrons que celle-ci peut améliorer la traduction automatique
The WMT'18 Morpheval test suites for English-Czech, English-German, English-Finnish and Turkish-English
Peer reviewe
The QT21 Combined Machine Translation System for English to Latvian
This paper describes the joint submis-
sion of the QT21 projects for the
English
→
Latvian translation task of the
EMNLP 2017 Second Conference on Ma-
chine Translation
(WMT 2017). The sub-
mission is a system combination which
combines seven different statistical ma-
chine translation systems provided by the
different groups.
The systems are combined using either
RWTH’s system combination approach,
or
USFD’s
consensus-based
system-
selection approach. The final submission
shows an improvement of 0.5 B
LEU
compared to the best single system on
newstest2017
The QT21/HimL Combined Machine Translation System
This paper describes the joint submission
of the QT21 and HimL projects for
the English→Romanian translation task of
the ACL 2016 First Conference on Machine
Translation (WMT 2016). The submission
is a system combination which
combines twelve different statistical machine
translation systems provided by the
different groups (RWTH Aachen University,
LMU Munich, Charles University in
Prague, University of Edinburgh, University
of Sheffield, Karlsruhe Institute of
Technology, LIMSI, University of Amsterdam,
Tilde). The systems are combined
using RWTH’s system combination
approach. The final submission shows an
improvement of 1.0 BLEU compared to the
best single system on newstest2016
The semantical functioning of posture verbs in contemporary Russian : stojatʹ, sidetʹ, ležatʹ
Les verbes de position sont décrits du point de vue d'une invariance mise au point pour chacun d'entre eux en fonction de la diversité des contextes dans laquelle on les trouve. Cela conduit d'une part à considérer que dans certains contextes leur sens n'est pas inutile au contenu informatif de l'énoncé et qu'il n'est pas équivalent à celui d'un verbe d'existence. Au contraire, l'emploi d'un verbe de position par un locuteur correspond à un choix motivé par la désignation de quelque chose de plus que l'être ou la présence du sujet. D'autre part, cette invariance mène à distinguer clairement le fonctionnement sémantique de chacun de ces verbes alors qu'ils semblent entrer en concurrence lorsqu'ils apparaissent dans des contextes visiblement similaires.Posture verbs are described from the perspective of an invariance developed for each of them according to the diversity of the contexts where they can be found. It conduces, on the one hand, to consider that in some contexts their meaning is not ancillary to the informative content of the statement, and that it is not equivalent to the meaning of a being verb. In fact, the use of a posture verb by a speaker refers to a choice motivated by something more than the being or the presence of the subject. On the other hand, this invariance facilitates clear distinction of the semantical function of each of these verbs, while they may seem to have the same meaning, when they occur in contexts which seem similar at first glance
Le fonctionnement sémantique des verbes de position en russe contemporain : stojatʹ, sidetʹ, ležatʹ
Posture verbs are described from the perspective of an invariance developed for each of them according to the diversity of the contexts where they can be found. It conduces, on the one hand, to consider that in some contexts their meaning is not ancillary to the informative content of the statement, and that it is not equivalent to the meaning of a being verb. In fact, the use of a posture verb by a speaker refers to a choice motivated by something more than the being or the presence of the subject. On the other hand, this invariance facilitates clear distinction of the semantical function of each of these verbs, while they may seem to have the same meaning, when they occur in contexts which seem similar at first glance.Les verbes de position sont décrits du point de vue d'une invariance mise au point pour chacun d'entre eux en fonction de la diversité des contextes dans laquelle on les trouve. Cela conduit d'une part à considérer que dans certains contextes leur sens n'est pas inutile au contenu informatif de l'énoncé et qu'il n'est pas équivalent à celui d'un verbe d'existence. Au contraire, l'emploi d'un verbe de position par un locuteur correspond à un choix motivé par la désignation de quelque chose de plus que l'être ou la présence du sujet. D'autre part, cette invariance mène à distinguer clairement le fonctionnement sémantique de chacun de ces verbes alors qu'ils semblent entrer en concurrence lorsqu'ils apparaissent dans des contextes visiblement similaires
Learning Morphological Normalization for Translation from and into Morphologically Rich Languages
International audienceWhen translating between a morphologically rich language (MRL)and English, word forms in the MRL often encode grammaticalinformation that is irrelevant with respect to English, leading to data sparsity issues. This problem can be mitigated by removing from the MRL irrelevantinformation through normalization. Such preprocessing is usually performed in a deterministic fashion,using hand-crafted rules and yielding suboptimal representations. We introduce here a simple wayto automatically compute an appropriate normalization ofthe MRL and show that it can improve machine translation in both directions